[アップデート] AWS Glue 5.0の一般提供開始 #AWSreInvent
AWS事業本部コンサルティング部の石川です。AWS Glue 5.0の一般提供を開始したことを発表しました。この最新バージョンでは、パフォーマンスの向上、セキュリティの強化、Amazon SageMaker Unified Studio や SageMaker Lakehouseのサポートなど、多くの新機能が追加されています。
AWS Glue 5.0とは
AWS Glue 5.0では、エンジンのアップグレードに加えて、セキュリティ機能の強化やSageMaker Lakehouseのサポートなどの新機能が追加されています。また、オープンテーブルフォーマットのサポートが更新され、データレイクにおけるパフォーマンス、コスト、ガバナンス、プライバシーに関する高度なユースケースに対応できるようになりました。
AWS Glue 5.0 の特長
エンジンのアップグレード
AWS Glue 5.0では、以下のエンジンがアップグレードされました:
- Apache Spark 3.5.2
- Python 3.11
- Java 17
オープンテーブルフォーマットのサポート強化
データレイクにおける高度なユースケースに対応するため、以下のオープンテーブルフォーマットのサポートが更新されました:
- Apache Hudi 0.15.0
- Apache Iceberg 1.6.1
- Delta Lake 3.2.0
これにより、パフォーマンス、コスト、ガバナンス、プライバシーに関する課題に対処できます。
セキュリティの強化
AWS Lake Formationと連携し、Sparkネイティブの細粒度アクセス制御が追加されました。これにより、Amazon S3データレイク上のデータに対して、テーブル、列、行、セルレベルの権限を適用できるようになりました。
Amazon SageMaker Lakehouseのサポート
AWS Glue 5.0は、SageMaker Lakehouseをサポートし、Amazon S3データレイクとAmazon Redshiftデータウェアハウス全体のデータを統合できるようになりました。
AWS Glue 5.0と4.0の違い
AWS Glue 5.0と4.0の主な違いは以下のとおりです。
機能 | AWS Glue 5.0 | AWS Glue 4.0 |
---|---|---|
Sparkバージョン | 3.5.2 | 3.3.0 |
Pythonバージョン | 3.11 | 3.10 |
新機能 | セキュリティ強化、SageMaker Lakehouse対応、Apache Hudi、Iceberg、Delta Lake対応の更新 | Built-in Pandas API、Apache Hudi、Iceberg、Delta Lake対応 |
パフォーマンス改善 | さらなるパフォーマンス向上 | Spark最適化による実行時間の改善 |
セキュリティ強化 | セキュリティ機能の強化 | 特になし |
データフォーマット対応 | Hudi 0.15.0、Iceberg 1.6.1、Delta Lake 3.2.0にアップデート | Apache Hudi、Iceberg、Delta Lake |
東京リージョンで利用可能
最後に
AWS Glue 5.0の一般提供開始は、エンジンのアップグレード、セキュリティの強化、そしてSageMaker関連の新機能の追加により、ユーザーはより効率的かつ安全にデータを扱えるようになりました。特に、Apache Spark 3.5.2、Python 3.11、Java 17へのアップグレードは、パフォーマンスの向上を実現しています。
また、オープンテーブルフォーマットのサポート強化により、Apache Hudi、Apache Iceberg、Delta Lakeの最新バージョンに対応し、データレイクにおける高度なユースケースへの対応が可能となりました。AWS Lake Formationとの連携による細粒度アクセス制御の実装は、データセキュリティを一段と強化しています。
Amazon SageMaker Unified Studio や SageMaker Lakehouseのサポートにより、Amazon S3データレイクとAmazon Redshiftデータウェアハウス全体のデータ統合が容易になりました。
Amazon EMRでは、すで利用できた Apache Spark 3.5.2 をAWS Glue 5.0で利用できるのが楽しみです。